Image segmentation is a key topic in image processing and computer vision with applications such as scene understanding, medical image analysis, robotic perception, video surveillance, augmented reality, and image compression, among many others. Various algorithms for image segmentation have been developed in the literature. Recently, due to the success of deep learning models in a wide range of vision applications, there has been a substantial amount of works aimed at developing image segmentation approaches using deep learning models. In this survey, we provide a comprehensive review of the literature at the time of this writing, covering a broad spectrum of pioneering works for semantic and instance-level segmentation, including fully convolutional pixel-labeling networks, encoder-decoder architectures, multi-scale and pyramid based approaches, recurrent networks, visual attention models, and generative models in adversarial settings. We investigate the similarity, strengths and challenges of these deep learning models, examine the most widely used datasets, report performances, and discuss promising future research directions in this area.
translated by 谷歌翻译
我们提出了多语言数据集的Multiconer,用于命名实体识别,涵盖11种语言的3个域(Wiki句子,问题和搜索查询),以及多语言和代码混合子集。该数据集旨在代表NER中的当代挑战,包括低文字方案(简短和未添加的文本),句法复杂的实体(例如电影标题)和长尾实体分布。使用基于启发式的句子采样,模板提取和插槽以及机器翻译等技术,从公共资源中汇编了26M令牌数据集。我们在数据集上应用了两个NER模型:一个基线XLM-Roberta模型和一个最先进的Gemnet模型,该模型利用了Gazetteers。基线实现了中等的性能(Macro-F1 = 54%),突出了我们数据的难度。 Gemnet使用Gazetteers,显着改善(Macro-F1 =+30%的平均改善)。甚至对于大型预训练的语言模型,多功能人也会构成挑战,我们认为它可以帮助进一步研究建立强大的NER系统。 Multiconer可在https://registry.opendata.aws/multiconer/上公开获取,我们希望该资源将有助于推进NER各个方面的研究。
translated by 谷歌翻译
当今一些最先进的深度学习模型的出色表现在某种程度上是由于在大型数据集上进行了广泛的(自我)监督的对比预处理。相比之下,该网络是通过成对的正(相似)和负(不同的)数据点呈现的,并经过培训以找到每个数据点的嵌入向量,即一个表示形式,可以进一步调整各种下游任务。为了将这些模型安全地部署在关键的决策系统中,至关重要的是要使他们衡量其不确定性或可靠性。然而,由于训练对比模型的成对性质,并且在输出(抽象嵌入矢量)上缺乏绝对标签,因此将常规不确定性估计技术适应此类模型是不平凡的。在这项工作中,我们研究是否可以以有意义的方式量化此类表示形式的不确定性。换句话说,我们探索给定数据点上的下游性能是否可以直接从其预训练的嵌入中预测。我们表明,可以通过直接估算嵌入空间中训练数据的分布并考虑表示表示的局部一致性来实现此目标。我们的实验表明,嵌入向量的不确定性概念通常与其下游精度密切相关。
translated by 谷歌翻译
尽管有广泛的可用性,但由于采集过程的投射性质,从明亮场显微镜(BFM)中获取的体积信息固有地很困难。我们从一组BFM Z-stack图像中研究了3D细胞实例的预测。我们提出了一种新型的两阶段弱监督方法,用于细胞的体积实例分割,这仅需要近似细胞质心注释。因此,创建的伪标签是通过Z-stack Guidance进行了新颖的改进损失来完善的。评估表明,我们的方法不仅可以推广到BFM Z-stack数据,还可以将其他3D单元成像模式推广到。我们的管道与完全监督的方法的比较表明,减少数据收集和标记的显着增益会导致较小的性能差异。
translated by 谷歌翻译
视网膜手术是一种复杂的医疗程序,需要特殊的专业知识和灵巧。为此目的,目前正在开发几种机器人平台,以实现或改善显微外科任务的结果。由于这种机器人的控制通常被设计用于在视网膜附近导航,成功的套管针对接并将仪器插入眼睛中代表了一种额外的认知努力,因此是机器人视网膜手术中的开放挑战之一。为此目的,我们为自主套管针对接的平台结合了计算机愿景和机器人设置。灵感来自古巴Colibri(蜂鸟)使用只使用视觉将其喙对齐,我们将相机安装到机器人系统的内逸线器上。通过估计套管针的位置和姿势,机器人能够自主地对齐并导航仪器朝向贸易圈的入口点(TEP),最后执行插入。我们的实验表明,该方法能够精确地估计套管针的位置和姿势,实现可重复的自主对接。这项工作的目的是降低机器人设置准备在手术任务之前的复杂性,因此增加了系统集成到临床工作流程的直观。
translated by 谷歌翻译
现代神经网络是强大的预测模型。但是,当认识到他们的预测可能是错误的时,他们的表现不佳。例如,对于最常见的激活函数之一,relu及其变体,即使是经过良好校准的模型也会产生不正确但置信度高的预测。在相关的动作识别任务中,大多数当前的分类方法基于剪辑级分类器,这些分类器密集地对给定的视频进行了非重叠,相同尺寸的剪辑并使用聚合函数(通常为平均值)来汇总结果,以达到视频级别预测。尽管这种方法已证明是有效的,但它在识别精度上是最佳的,并且具有较高的计算开销。为了减轻这两个问题,我们提出了信心蒸馏框架,以教导老师对学生抽样的不确定性表示,并将学生和教师模型之间的完整视频预测任务分开。我们对三个动作识别数据集进行了广泛的实验,并证明我们的框架在动作识别精度(最高20%)和计算效率(超过40%)方面取得了重大提高。
translated by 谷歌翻译